Az optikai karakterfelismerő (OCR, azaz Optical Character Recognition) szoftverek a csak papír alapon rendelkezésre álló, valamint a nem szerkeszthető formátumú, például szkennelt JPG vagy PDF fájlokat alakítják át szerkeszthető (pl. MS Word, Excel, PowerPoint stb.) dokumentumokká. Ezek a programok tehát nemcsak a digitalizálásban nyújtanak segítséget, hanem egy lépésben fel is dolgozhatóak velük a beolvasott dokumentumok, az így kapott elektronikus fájlok pedig a későbbi munka során tetszőlegesen formázhatóak, tovább alakíthatóak. Az OCR szoftver ehhez egyesével szkenneli be és ismeri fel a karaktereket, majd alakítja azokat elektronikus karakterekké, így egy kereshető és szerkeszthető digitális fájlt hoz létre.

Az első ilyen típusú szoftverek a 80-as évek végén, a 90-es évek elején jelentek meg, meglehetősen kezdetleges formában. Az első OCR szoftverek megannyi korláttal rendelkeztek, ezek túlnyomó többségét mára a technológia fejlődése révén sikerült áthidalni, így a karakterfelismerő programok számos fájlformátumot és nyelvet képesek felismerni, feldolgozni, és konvertálni.

Ezen szoftverek további nagy előnye, hogy nemcsak szöveges formában képesek átemelni és megjeleníteni a tartalmat, hanem ezzel egyidejűleg megtartják a forrásdokumentum minden formai elemét, a képeket, táblázatokat, ábrákat, grafikonokat – gyakorlatilag a teljes elrendezést. A legújabb, mobiloptimalizált verziókkal pedig már a mobiltelefonnal vagy tablettel készített jó minőségű képek is feldolgozhatóak, beolvashatóak, és szerkeszthető dokumentummá alakíthatóak.

Az így átkonvertált anyagok minősége azonban számos tényezőtől függ. Többek között a rendelkezésre álló szkennelt dokumentumok minősége (gyenge felbontás, elmosódott részek, túl halvány vagy homályos), és természetesen az OCR szoftver típusa is befolyásolja a végeredményt. A technológia jelenlegi szintjén elsősorban a szkennelt anyagok minősége jelenti a legnagyobb korlátot: a rosszabb minőségű szkennelt vagy fotózott dokumentumok feldolgozása jóval nehézkesebb, időigényesebb és bonyolultabb folyamat, az eredmény pedig sokszor elmarad a tökéletestől: a konvertált szövegben előfordulhatnak kisebb-nagyobb karakterkódolási, formázási hibák, amiket utólag, manuálisan lehet csak korrigálni. Jelenleg több tucat OCR szoftverből válogathatunk, a technológia folyamatos fejlődésével pedig a beolvasott anyagok minősége is fokozatosan javul. A karakterfelismerő programok jelenleg ismert további hátránya, hogy a kézzel írott szöveggel kevés esetben vagy egyáltalán nem tudnak megbirkózni.

Mi az a karakterfelismerő szoftver, és miért van rá szükség?

Hogyan segíti mindez a fordítási munkát?

Az OCR szoftverek természetesen számos területen használhatóak, főként papír alapú dokumentumok digitalizálása során, a fordítási iparágban azonban elsősorban a felismerő funkció használatos, hiszen a fordítási projektek során napi szinten találkozunk különböző szkennelt, illetve nem szerkeszthető anyagokkal, amelyeket fel kell dolgozni a fordítási munka megkezdése előtt. Így még inkább felértékelődik az optikai karakterfelismerő programok szerepe.

Az OCR programok tehát nagyban megkönnyítik a fordítási munkát, és gyorsítják a teljes fordítási folyamatot. Segítségükkel könnyedén feldolgozhatóak a szkennelt szövegek, így analizálhatóak szószám és egyéb szempontok szerint, például a pontos árajánlat elkészítéséhez. További előnyük, hogy a formázás megtartásának köszönhetően gyorsan és könnyedén beazonosíthatóak a lefordított részek, és áttekinthetőbbek lesznek a dokumentumok. Ezzel jelentős mértékben megkönnyítik a munkát egy-egy ajánlatkészítés vagy fordítási projekt során, ugyanis nem szükséges új dokumentumot létrehozva újragépelni és szerkeszteni a teljes szöveges tartalmat, ezzel pedig nemcsak jelentős időt takarítanak meg, hanem a költségeket is csökkentik.

A különböző optikai karakterfelismerő szoftverek tehát jelentős szerepet töltenek be a fordítási folyamatban, s ez a szerep a technológia fejlődésével és tökéletesítésével még tovább nő majd.

 

Hasznos lehet még:

Így lehetséges a dokumentum eredeti elrendezésének és formázásának megtartása a fordítás során

Milyen hatással van a technológiai fejlődés a fordításokra?

Napjainkban nem mehetünk el szó nélkül amellett a tény mellett, hogy a technológiai fejlődés minden téren begyűrűzik az életünkbe – nincs ez másként a fordítási iparágban sem. De mégis hogyan hat mindez a fordítás minőségére és hogyan tükröződnek a technológiai vívmányok például a fordítási díjakban?

Egy korábbi bejegyzésünkben már ejtettünk szót a fordítástámogató szoftverek használatáról. A számítógép megjelenésével és annak elterjedésével, az 1980-as évektől kezdve kezdtek felbukkanni és egyre inkább teret nyerni maguknak a különböző fordítástámogató szoftverek és egyéb olyan számítógépes programok, amelyek a fordítási folyamat során használhatóak. Cikkünkben röviden bemutatunk néhányat a leggyakrabban használat szoftverek közül.

A fordítási memóriák és CAT szoftverek gondoskodnak arról, hogy a lefordított szövegek egységes formában tárolhatók és a későbbi projektek során újrafelhasználhatók legyenek. Így az elmenthető szöveg mennyiségének már nem az emberi memória korlátozott kapacitása, hanem csupán számítógépünk tárhelye szab határt. Az ismétlődő szövegrészek, illetve részleges találatok révén pedig a fordítási költségek és az átfutási idők is csökkenhetők. 

Linguamed_techn_fejlodes

Az optikai karakterfelismerő szoftverek segítségével jelentősen lecsökkenthető a nem szerkeszthető formátumú (pl. PDF vagy szkennelt) dokumentumok feldolgozásához és az árajánlatok elkészítéséhez szükséges idő, a célnyelvi dokumentum pedig a forrásnyelvivel szinte megegyező formátumban készülhet el. Nincs szükség tehát a szöveg időigényes begépelésére, és minimális utószerkesztési munkával összehasonlíthatatlanul jobb végeredményt kapunk a formátumot tekintve. Ömlesztett szöveg helyett a megrendelő az eredeti dokumentummal csaknem azonos formában kapja meg a fordítást. A karakterfelismerő szoftverek segítségével szinte bármilyen fájlformátumban kapott anyag szószáma pontosan meghatározható, a fordítandó szövegmennyiség pontos ismeretében pedig könnyebben és precízebben megadhatóak a fordítási díjak, illetve a határidő.

A minőségellenőrző szoftverek az elkészült fordítás minőségét garantálják oly módon, hogy a konzisztenciát, a különböző egyezési vagy lokalizációs hibákat, illetve esetleges hiányosságokat ellenőrzik. Ezeknek a szoftvereknek kiemelt jelentősége van nagyobb terjedelmű, több száz vagy akár ezer oldalt is meghaladó szövegek esetén, ugyanakkor folyamatos, hosszú távú munka során is sokoldalúan felhasználhatóak.

A különböző szószedeteket, terminológiai adatbázisokat kezelő szoftverek szintén a minőséget növelik, a konzisztens szóhasználat biztosítása révén. További előnyük, hogy kivétel nélkül beépíthetőek a megrendelő egyedi igényei a szakkifejezések használatára vonatkozóan.

A projektkezelő programoknak köszönhetően könnyen átláthatóvá, gördülékenyebbé, pontosabbá, és gyorsabbá válik a fordítási projektek és a különböző adatbázisok nyomon követése, ez pedig előnyös mind a megrendelőnek, mind pedig a fordítóirodának. 

A helyesírás-ellenőrző szoftverek a korrektúrázási, utolsó ellenőrzési fázisban gondoskodnak arról, hogy egyetlen elütés vagy helyesírási hiba se maradjon észrevétlen.

A fenti példákból is jól látható, hogy a különböző szoftverek más-más módon ugyan, de kivétel nélkül hozzájárulnak a még magasabb szintű minőség előállításához, és ezáltal jobb ár-érték arány biztosításához. Kiemelt fontosságú tehát a technológiai vívmányok folyamatos nyomon követése, hiszen azok naprakész módon történő hasznosítása és az újdonságok fordítási munkafolyamatba történő beillesztése eredményesen egészíti ki a szakfordítók, lektorok, korrektorok és projektmenedzserek munkáját.

 

Hasznos lehet még:

Jelnyelvről fordít a SignAloud kesztyű

11 érv a fordítástámogató szoftver használata mellett